Exploitation de l'échelle d'écriture pour améliorer la reconnaissance automatique des textes manuscrits arabe
نویسندگان
چکیده
RÉSUMÉ. Les documents manuscrits arabes présentent des défis spécifiques pour la reconnaissance du fait de la nature de l'écriture cursive et d'autres facteurs, comme la taille de l'écriture. Une des plus grandes bases étiquetées des documents manuscrits arabes, la base de données NISTOpenHaRT inclut de grandes variabilités dans la taille du texte inter et intra mots et lignes. Nous proposons plusieurs approches pour faire face à ces variations lors des phases d'apprentissage et de reconnaissance. Nos premières expériences montrent que la reconnaissance est largement affectée par la taille d'écriture et offrent ainsi une voie pour l'amélioration des performances en tenant compte de l'échelle d'écriture. En phase de reconnaissance, nous avons redimensionné chaque donnée de test à plusieurs tailles prédéfinies, puis nous avons combiné les scores de reconnaissance associés à chacune des tailles. Cette approche a permis des gains notables de performance. De plus, nous avons intégré des données artificiellement redimensionnées pour adapter les modèles HMM à différentes échelles. Nous avons aussi obtenu des gains de performance par deux méthodes différentes de combinaison (ROVER, treillis) des résultats des modèles adaptés. Nous fournissons des résultats de reconnaissance montrant les avantages de l'exploitation de la taille d'écriture.
منابع مشابه
Étude Comparative des Algorithmes de Segmentation Thématique Pour la Langue Arabe
Résumé. Le besoin d'avoir un système de segmentation thématique des textes arabesa pour but d’améliorer les fonctionnalités de la Recherche d'Information Arabe (RIA). La segmentation thématique des textes a été utilisée pour améliorer la précision des processus subséquents telle que les systèmes de résumé automatique, les systèmes de Question/Réponses et les systèmes de recherche d’information....
متن کاملLa Théorie de la Résonance Adaptative et les Moments de Zernike pour la Reconnaissance de Mots Arabes Manuscrits
Résumé. La reconnaissance de l'écriture arabe manuscrite est un domaine de recherche relativement récent et qui a connu ces dernières années des progrès remarquables. Il présente un intérêt indéniable dans l’accomplissement de tâches considérées fastidieuses dans certains domaines comme le tri postal, la lecture de chèques bancaires, la lecture des bordereaux, etc. Ce papier présente la concept...
متن کاملApprentissage supervisé pour la catégorisation de documents manuscrits en-ligne
RÉSUMÉ. Cet article s’intéresse à la problématique de la catégorisation automatique de documents manuscrits en-ligne et plus particulièrement à l’impact de la reconnaissance de l’écriture dans un processus de catégorisation utilisant des méthodes d’apprentissage automatique. Nous comparons les performances obtenues avec des documents issus d’un système de reconnaissance de l’écriture en-ligne e...
متن کاملEtude et Evaluation de la Di-Syllabe comme Unité Acoustique pour le Système de Synthèse Arabe PARADIS
Létude que nous présentons dans cet article sinscrit dans le cadre de la réalisation dun système de synthèse de la parole à partir du texte pour la langue arabe. Notre système PARADIS est basé sur la concaténation des di-syllabes avec TD-PSOLA comme technique de synthèse. Nous présentons dans cet article lintérêt du choix de la di-syllabe comme unité de concaténation pour le synthétiseur et...
متن کاملParole et Traduction Automatique: Le Module de Reconnaissance RAPHAEL
Pour la traduction de parole, il est n6cessaire de disposer d'un syst~me de reconnaissance de la parole spontan6e grand vocabulaire, tournant en temps r6el. Le module RAPHAEL a 6t6 con~u sur la plateforme logicielle de JANUS-III d6velopp6e au laboratoire ISL (Interactive Systems Laboratory) des universit6s Karlsruhe et Carnegie Mellon. Le corpus BREF-80 (textes lus extraits du Journal Le Monde)...
متن کامل